彩票票证假设(LTH)引起了人们的关注,因为它可以解释为什么过度参数化模型通常显示出很高的概括能力。众所周知,当我们使用迭代幅度修剪(IMP)时,这是一种算法,可以找到具有高概括能力的稀疏网络,可以独立从初始权重训练,称为获胜票,最初的大型学习率在深层神经网络,例如重新连接。但是,由于最初的较大学习率通常有助于优化器收敛到平坦的最小值,因此我们假设获胜票的最小值相对较高,这在概括能力方面被认为是不利的。在本文中,我们证实了这一假设,并表明Pac-Bayesian理论可以对LTH与概括行为之间的关系有明确的理解。根据我们的实验发现,平坦度可用于提高标签噪声的准确性和稳健性,并且与初始权重的距离深深涉及获胜的门票,我们提供了使用尖峰和slab分布的PAC-Bayes绑定到的pac-bayes分析获胜门票。最后,我们重新审视了现有的算法,以从Pac-Bayesian的角度查找获奖门票,并对这些方法提供新的见解。
translated by 谷歌翻译
人口动态是对生物种群大小的时间和空间变化的研究,是人口生态学的主要部分。分析人口动态的主要困难之一是,由于实验成本或测量限制,我们只能从固定点观察值中获得粗略的时间间隔的观察数据。最近,已经提出,通过使用连续归一化流(CNF)和动态最佳运输来对种群动力学进行建模,以从观察到的人群中推断样品轨迹。尽管CNF中的样本行为是确定性的,但生物系统中的实际样本以本质上随机但方向性的方式移动。此外,当样本从点A中的点移动到动力学系统中B点B时,其轨迹通常遵循最小动作的原理,在该原理中,相应的动作具有最小的可能值。为了满足样品轨迹的这些要求,我们制定了Lagrangian Schr \“ Odinger Bridge(LSB)问题,并提议将其近似于使用神经SDE和正则化解决。我们还开发了一个模型体系结构,可以更快地计算。实验结果表明,该结果表明,该模型表明,提出的方法即使对于高维数据也可以有效地近似人口级动力学,并且使用拉格朗日引入的先验知识使我们能够估算具有随机行为的单个样本的轨迹。
translated by 谷歌翻译
原型网络是基于元学习的原型分类器,广泛用于几秒钟学习,因为它通过在不调整元测试期间的超参数来构建特定于特定的原型来分类未经调整的示例。有趣的是,最近的研究吸引了很多关注,表明具有微调的线性分类器,不使用元学习算法,与原型网络相对执行。但是,在将模型调整为新环境时,微调需要额外的超参数。此外,虽然几次拍摄学习的目的是使模型能够快速适应新的环境,但每次出现新类时都需要进行微调,使得快速适应困难。在本文中,我们分析了原型分类器在没有微调和元学习的情况下如何运作。我们通过实验发现,使用标准预先训练的模型直接使用用标准预先训练的模型来构建Meta测试中的原型分类器的特征矢量不会表现出来以及具有预先训练模型的微调和特征向量的原型网络和线性分类器。因此,我们推导出对原型网络的新颖泛化,并且表明专注于特征向量的规范的方差可以提高性能。我们通过实验研究了几种正常化方法,以最大限度地减少规范的方差,并发现通过使用L2标准化和嵌入空间变换而无需微调或元学习,可以获得相同的性能。
translated by 谷歌翻译
由于其无监督的性质和下游任务的信息性特征表示,实例歧视自我监督的代表学习受到了受到关注的。在实践中,它通常使用比监督类的数量更多的负样本。然而,现有分析存在不一致;从理论上讲,大量的负样本在下游监督任务上降低了分类性能,同时凭经验,它们提高了性能。我们提供了一种新颖的框架,用于使用优惠券收集器的问题分析关于负样本的经验结果。我们的界限可以通过增加负样本的数量来隐立地纳入自我监督损失中的下游任务的监督损失。我们确认我们的拟议分析持有现实世界基准数据集。
translated by 谷歌翻译
我们提出了使用多级蒙特卡罗(MLMC)方法的变分推理的差异减少框架。我们的框架是基于Reparameterized梯度估计的梯度估计,并在优化中从过去更新历史记录获得的“回收”参数。此外,我们的框架还提供了一种基于随机梯度下降(SGD)的新优化算法,其自适应地估计根据梯度方差的比率用于梯度估计的样本大小。理论上,通过我们的方法,梯度估计器的方差随着优化进行而降低,并且学习率调度器函数有助于提高收敛。我们还表明,就\ Texit {信噪比}比率而言,我们的方法可以通过提高初始样本大小来提高学习速率调度器功能的梯度估计的质量。最后,我们确认我们的方法通过使用多个基准数据集的基线方法的实验比较来实现更快的收敛性并降低梯度估计器的方差,并降低了与其他方法相比的其他方法。
translated by 谷歌翻译
Target Propagation (TP) is a biologically more plausible algorithm than the error backpropagation (BP) to train deep networks, and improving practicality of TP is an open issue. TP methods require the feedforward and feedback networks to form layer-wise autoencoders for propagating the target values generated at the output layer. However, this causes certain drawbacks; e.g., careful hyperparameter tuning is required to synchronize the feedforward and feedback training, and frequent updates of the feedback path are usually required than that of the feedforward path. Learning of the feedforward and feedback networks is sufficient to make TP methods capable of training, but is having these layer-wise autoencoders a necessary condition for TP to work? We answer this question by presenting Fixed-Weight Difference Target Propagation (FW-DTP) that keeps the feedback weights constant during training. We confirmed that this simple method, which naturally resolves the abovementioned problems of TP, can still deliver informative target values to hidden layers for a given task; indeed, FW-DTP consistently achieves higher test performance than a baseline, the Difference Target Propagation (DTP), on four classification datasets. We also present a novel propagation architecture that explains the exact form of the feedback function of DTP to analyze FW-DTP.
translated by 谷歌翻译
Despite the impact of psychiatric disorders on clinical health, early-stage diagnosis remains a challenge. Machine learning studies have shown that classifiers tend to be overly narrow in the diagnosis prediction task. The overlap between conditions leads to high heterogeneity among participants that is not adequately captured by classification models. To address this issue, normative approaches have surged as an alternative method. By using a generative model to learn the distribution of healthy brain data patterns, we can identify the presence of pathologies as deviations or outliers from the distribution learned by the model. In particular, deep generative models showed great results as normative models to identify neurological lesions in the brain. However, unlike most neurological lesions, psychiatric disorders present subtle changes widespread in several brain regions, making these alterations challenging to identify. In this work, we evaluate the performance of transformer-based normative models to detect subtle brain changes expressed in adolescents and young adults. We trained our model on 3D MRI scans of neurotypical individuals (N=1,765). Then, we obtained the likelihood of neurotypical controls and psychiatric patients with early-stage schizophrenia from an independent dataset (N=93) from the Human Connectome Project. Using the predicted likelihood of the scans as a proxy for a normative score, we obtained an AUROC of 0.82 when assessing the difference between controls and individuals with early-stage schizophrenia. Our approach surpassed recent normative methods based on brain age and Gaussian Process, showing the promising use of deep generative models to help in individualised analyses.
translated by 谷歌翻译
In the field of reinforcement learning, because of the high cost and risk of policy training in the real world, policies are trained in a simulation environment and transferred to the corresponding real-world environment. However, the simulation environment does not perfectly mimic the real-world environment, lead to model misspecification. Multiple studies report significant deterioration of policy performance in a real-world environment. In this study, we focus on scenarios involving a simulation environment with uncertainty parameters and the set of their possible values, called the uncertainty parameter set. The aim is to optimize the worst-case performance on the uncertainty parameter set to guarantee the performance in the corresponding real-world environment. To obtain a policy for the optimization, we propose an off-policy actor-critic approach called the Max-Min Twin Delayed Deep Deterministic Policy Gradient algorithm (M2TD3), which solves a max-min optimization problem using a simultaneous gradient ascent descent approach. Experiments in multi-joint dynamics with contact (MuJoCo) environments show that the proposed method exhibited a worst-case performance superior to several baseline approaches.
translated by 谷歌翻译
使用三维(3D)图像传感器的智能监视一直在智能城市的背景下引起人们的注意。在智能监控中,实施了3D图像传感器获取的点云数据的对象检测,以检测移动物体(例如车辆和行人)以确保道路上的安全性。但是,由于光检测和范围(LIDAR)单元用作3D图像传感器或3D图像传感器的安装位置,因此点云数据的特征是多元化的。尽管迄今已研究了从点云数据进行对象检测的各种深度学习(DL)模型,但尚无研究考虑如何根据点云数据的功能使用多个DL模型。在这项工作中,我们提出了一个基于功能的模型选择框架,该框架通过使用多种DL方法并利用两种人工技术生成的伪不完整的训练数据来创建各种DL模型:采样和噪声添加。它根据在真实环境中获取的点云数据的功能,为对象检测任务选择最合适的DL模型。为了证明提出的框架的有效性,我们使用从KITTI数据集创建的基准数据集比较了多个DL模型的性能,并比较了通过真实室外实验获得的对象检测的示例结果。根据情况,DL模型之间的检测准确性高达32%,这证实了根据情况选择适当的DL模型的重要性。
translated by 谷歌翻译
针对目标的对话任务的先前研究缺乏关键观念,该观念在以目标为导向的人工智能代理的背景下进行了深入研究。在这项研究中,我们提出了目标引导的开放域对话计划(TGCP)任务的任务,以评估神经对话代理是否具有目标对话计划的能力。使用TGCP任务,我们研究了现有检索模型和最新强生成模型的对话计划能力。实验结果揭示了当前技术面临的挑战。
translated by 谷歌翻译